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摘要 : 【 目的 】 对 适用 于 特征 选择 的 算法 进行 研究 ， 有效 提高 文本 分 类 精度 和 效率 。[ 方法 ] 结合 特征 选择 特点 ， 
以 可 拓 理 论 为 基础 构造 小 生境 量子 粒子 群 算法 , 通过 改进 增强 算法 搜索 能 力 , 将 不 同 的 特征 选择 方法 用 于 文本 


分 类 并 进行 比较 。[ 结果 】 实验 结果 表明 , 与 IG、MI 等 方法 相 比 , 基于 可 拓 小 生境 量子 粒子 群 算法 的 特征 选择 


在 文本 分 类 中 取得 了 较 好 效果 , 算法 的 求解 精度 得 到 明显 提升 。[ 局 限 】 所 提出 的 特征 选择 方法 在 时 间 效 率 上 有 待 


改善 。[ 结论 】 对 量子 粒子 群 算法 的 改进 措施 有 效 提高 了 算法 的 搜索 能 力 ,在 特征 选择 的 应 用 中 达到 较 好 的 效果 。 
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随 着 智能 信息 技术 的 发 展 , 海量 高 维 数据 处 理 成 
为 机 顺 学 习 领 域 面 临 的 极 大 挑战 之 一 ， 数 据 维度 的 增 
加 导致 解 空间 规模 呈 指 数 级 增长 ， 加 之 现实 数据 中 包 
含 着 大 量 宛 余 信息 特征 ,传统 的 机 器 学 习 算 法 已 无 法 
满足 高 维 、 稀 玻 数据 的 处 理 要 求 凹 。 为 提高 数据 处 理 
的 效率 , 国内 外 对 特征 提取 与 选择 技术 进行 了 深入 研 
究 , 目前 大 多 数 特征 选择 方法 采用 启发 式 搜索 , 在 牺 
牲 搜索 空间 的 基础 上 提高 了 搜索 效率 , 但 精度 也 因此 
受到 一 定 影 响 。 粒 子 群 算法 实现 简单 , 不 少 文 献 对 其 
在 特征 选择 问题 求解 中 的 应 用 进行 了 研究 , 但 研究 重 
点 多 集中 于 算法 自身 的 搜索 能 力 , 对 特征 选择 问题 的 
性 质 、 特 点 及 算法 的 易 懂 性 、 可 操作 性 考虑 较 少 P11。 
本 文 结合 特征 选择 特点 ,提出 一 种 应 用 小 生境 和 反问 
学 习 策 略 的 改进 量子 粒子 群 算法 (Quantum-behaved 
Particle Swarm Optimization Algorithm Using Niche and 
Opposition-Based Learning, NOL-QPSO), 以 可 拓 理 论 
为 基础 改进 粒子 群 算法 模型 ， 结 合 粗糙 集 理论 、 适 应 


度 动态 共享 技术 , 引入 精英 反 向 学 习 策略 ， 有 效 解决 
算法 过 早 收敛 的 问题 , 增强 寻 优 能 力 ， 以 更 好 地 实现 
文本 特征 子 集 的 选取 。 


2 研究 现状 


特征 选择 的 目的 是 从 某 组 特征 集中 选择 出 若干 个 
最 具 代 表 性 的 有 效 特征 组 成 具有 类 别 区 分 能 力 的 特征 
子 集 ， 对 样本 进行 识别 .分 类 ， 从 而 降低 特征 空间 的 维 
数 。 随 着 信息 领域 数据 规模 的 增 大 和 特征 维 数 的 增加 ， 
传统 的 学 习 算 法 往往 会 表现 出 性 能 上 的 局 限 性 ， 因 此 ， 
内 外 学 者 近年 来 对 特征 选择 技术 和 方法 进行 了 广泛 
而 深入 的 研究 。 在 文本 分 类 中 , 常用 的 有 粗糙 集 、 文 
持 向 量 机 、 决 策 树 、 神 经 网 络 及 基于 尽 群 、 粒 子 群 等 
群 智能 算法 的 分 类 方法 。 文 献 [5] 通 过 引入 遗传 算法 ， 
对 传统 的 特征 提取 方法 进行 改进 , 在 用 于 特征 维 数 较 
少 的 情况 时 取得 较 好 的 效果 。 文 献 [6] 提 出 的 基于 野草 
算法 的 文本 特征 选择 方法 , 通过 平衡 词 条 权重 与 选择 
机 率 , 增强 了 特征 选择 结果 的 准确 性 。 目 前, 粒子 群 算 
法 在 文本 特征 选择 中 的 应 用 可 以 大 致 分 为 三 个 类 别 。 
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(1) 通过 粒子 群 算法 对 分 类 算法 进行 优化 。 文 献 
[7] 将 粒子 群 算法 与 近邻 法 结合 ,并 应 用 于 文本 分 
类 , 在 保证 精度 的 基础 上 提高 了 复杂 文本 的 分 类 速 
度 。 文 献 [8] 通 过 粒子 群 优化 算法 较 强 的 随机 搜索 能 
对 样本 中 的 近邻 搜索 ,有 效 避 免 了 粒子 速度 的 影响 ， 
实验 表明 该 方法 与 KNN 算法 相 比分 类 精度 更 高 。 文 
献 [9 提出 一 种 基于 PSO 优化 支持 向 量 机 的 方法 , 通过 
改进 的 PSO 算法 对 SVM 参数 进行 优化 , 经 过 样本 训 
练 得 到 分 类 需 ,， 从 而 实现 文本 的 分 类 。 

(2) 将 粒子 群 算法 作为 分 类 算法 建立 分 类 顺 , 实 

现 文本 的 分 类 。 文 献 [10] 结 合 频率 统计 函数 、 适 应 度 
函数 和 打分 函数 , 通过 粒子 群 算法 确定 出 具体 分 类 规 
则 , 实现 了 教育 管理 系统 中 文本 资源 的 自动 分 类 。 文 
献 [11] 将 混沌 二 进 制 粒子 群 算法 与 KNN 算法 结合 , 通 
过 粒子 群 算法 进行 特征 选择 , 并 在 此 基础 上 利用 KNN 
算法 完成 文本 分 类 , 分 类 准确 率 、 召 回 率 都 有 所 改善 。 
文献 [12] 对 微粒 群 算法 进行 改进 , 提出 一 种 混沌 微粒 
群 算法 , 并 用 于 分 类 规则 的 提取 。 
(3) 直接 利用 粒子 群 算法 完成 特征 选择 。 为 压缩 文 
本 挖掘 所 占用 的 内 存 空间 , 提高 算法 速度 ,文献 [13-14] 
提出 了 一 种 结合 并 行 算法 和 二 进 制 免疫 量子 粒子 群 算 
法 的 特征 选择 方法 , 不 仅 能 准确 获取 特征 子 集 ， 而 且 
提高 了 算法 的 时 间 效 率 。 文 献 [15] 对 异 质 数据 的 特征 
选择 问题 进行 研究 , 提出 一 种 基于 多 目标 微粒 群 优化 
的 特征 选择 方法 , 通过 典型 数据 集 的 实验 验证 了 方法 
的 有 效 性 。 

粒子 群 算法 作为 一 种 简单 、 实 用 的 优化 算法 ,对 
特征 选择 问题 的 研究 具有 重要 作用 ,进一步 的 研究 不 
仅 要 从 粒子 群 优化 算法 本 身 的 改进 入 手 , 还 要 对 算法 
应 用 于 特征 选择 问题 的 途径 和 方式 进行 分 析 。 


3 基于 可 拓 理 论 的 小 生境 构造 策略 
针对 粒子 群 算法 容易 陷入 局 部 最 优 和 出 现 早熟 等 
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法 的 寻 优 能 力 进 行 优化 , 其 基本 思想 是 根据 某 种 规则 
将 种 群 划 分 为 若干 类 , 将 解 空间 分 为 不 同 的 搜索 域 ， 
对 不 同 的 局 部 最 优点 展开 同步 搜索 ,避免 过 早 收敛 或 
过 度 搜索 现象 ""。 该 技术 首先 要 考虑 的 关键 问题 是 小 
生境 的 划分 , 常用 的 方法 是 通过 设 定 小 生境 半径 划分 
子 空间 , 这 种 方法 虽 简 单 可 行 , 但 对 于 复杂 问题 的 求 
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解 效 果 并 不 理想 , 为 此 本 文 以 物 元 可 拓 理 论 中 为 基础 ， 
采用 可 拓 聚 类 算法 构造 小 生境 。 

设 O(k)={XX,,i=1,2,…,N} 为 含有 NN 个 样本 的 
初始 种 群 ， 每 个 样本 特征 维 数 为 n， 样本 了 的 数据 模 
型 可 表示 为 : 


IT CO x 
2 
X=[1,C,7]= oh 


n 
C, Xi 


N 
令 min ， =minxy ， Imax ) = a 则 特征 Cj; 的 
i= i=l 
可 行 域 可 表示 为 : VV; =[min ;,max ]。 
定义 1 根据 文献 [18]，X; 对 类 5 的 关联 度 
KK,(5S,) 计算 准则 定义 为 : 


K,(S))= ,Nh (x) 
/=l 


k(x;) = 


其 中 ，4 =[4]=[4, 入 41] 为 于 项 特征 指标 
的 权重 , 反映 了 各 特征 在 个 体 评价 中 的 重要 程度 。 

为 对 各 类 的 相似 度 作 出 评价 , 参照 样本 与 类 之 
间 关 联 度 的 定义 ， 本 文 对 不 同类 之 间 的 关联 度 ( 即 类 
间 关 联 度 ) 及 类 与 自身 中 心 的 关联 度 ( 即 自 关联 度 ) 作 
出 定义 : 


7 CI ML 

ee C, M? 
定义 2 取 类 5S; 的 中 心 物 元 : R, = 0 
CG, MY 


类 二 与 5,(1=1,2,…,k 且 1z 矿 ) 的 类 间 关 联 度 可 以 通 
过 RR 对 类 5 的 关联 度 K,(5,) 表示 。K,(S,) 值 越 大 表 
明 类 Sr 与 8 的 相似 性 越 大 。 

定义 3 当 1= 厂 时 ，R, 与 类 5j 的 关联 度 则 为 类 
Sr 的 自 关 联 度 ， 表 示 为 : 
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Rr (Sr) 


Np j=1 

其 中 ，nj 是 类 Sj 的 样本 数目 ，K,(Sj) 是 类 Sj 
第 i 个 样本 的 关联 度 。 

小 生境 具体 构造 方法 如 下 : 

随机 选取 上 个 待 聚 类 样本 作为 中 心 ， 形成 个 初始 
类 5,(1 =1,2,…,k) 。 

@) 采 用 文献 [19] 的 方法 对 其 余 样 本 进行 聚 类 ,通过 样本 
关联 度 表征 样本 XY 与 类 8) 的 关联 程度 ， 以 此 判定 其 具体 类 
属 : 人 SK.(S,) = max K,(S) 若 K,(S,) 宇 0, 则 XeS,; 若 
开 .(S)<0， 则 将 筷 划 为 新 类 Sr ,k=k+1。 

@) 为 使 类 的 划分 得 到 约 简 , 考虑 将 相似 性 较 强 的 类 归并 , 根 
据 类 间 关 联 度 , 若 K,(S))>>Kr，, 则 将 类 Sj 并 入 3 ， 上 = 大 -1。 

聚 类 调整 完成 后 , 更 新 各 类 中 心 物 元 , 重新 计算 关联 
度 ， 重 复 新 一 轮 的 样本 归 类 ,直至 归 类 结果 不 变 。 

通过 以 上 基于 可 拓 理 论 的 聚 类 过 程 , 形成 稳定 多 
样 的 小 生境 ,各 个 子 种 群 在 相对 独立 的 空间 寻 优 , 可 
以 避免 粒子 群 陷 入 局 部 极 值 ,增强 算法 的 全 局 性 。 


4 小 生境 量子 粒子 群 优化 的 特征 选择 


4.1 个 体 编码 

在 特征 选择 中 , 个 体 编码 通常 采用 二 进 制 编码 的 
方式 , 一 个 0-1 字 符 串 代表 一 个 粒子 , 每 一 数位 对 应 一 
种 特征 ,其 中 0 表示 该 数位 对 应 的 特征 在 粒子 中 不 被 
选择 , 而 1 数位 对 应 的 特征 包含 在 粒子 中 。 原 始 特征 
集 通 过 编码 转化 为 由 长 度 为 n 的 0-1 字符 串 组 成 的 解 
空间 。 如 四 维 样本 0-1-1-0 表示 个 体 选 择 了 特征 C, 和 
C3 ， 而 据 弃 特征 CI 、C4 。 
4.2 ”粒子 更 新 

在 量子 粒子 群 算法 中 ,粒子 被 赋予 量子 行为 ,其 
状态 通过 波 函 数 来 描述 。 粒 子 在 量子 6 势 阱 的 基础 上 
不 断 向 局 部 吸引 点 靠近 ,粒子 出 现在 空间 某 一 处 的 概 
率 通 过 求解 薛 定 谓 方程 得 出 ， 从 而 利 用 蒙特 卡 罗 模 拟 
更 新 粒子 位 置 ， 其 方程 具体 描述 为 上 1 


si(g+)=Xg) + In(d) 


X(8) = 9%; pou (2) + (1 -po (8) 
(8)—x(g)| 
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其 中 ，N 表示 粒子 的 个 数 ; 工 为 势 阱 长 度 ; 
u,9 e[0,1] 为 随机 数 ，2 ww(g) 是 粒子 i 经 过 g 次 迭代 
的 历史 最 优 位 置 ，xy。 (8 ) 是 粒子 群 经 过 g 次 迭代 的 全 局 
最 优 位 置 ，x(g) 为 局 部 吸引 点 , 在 x yoy(8) 和 ws(8) 
间 随 机 取得 ; x(g) 为 粒子 群 的 中 心 位 置 ， 即 第 g 次 迭代 
时 粒子 群 个体 的 平均 最 佳 位 置 ，6 为 收缩 扩张 系数 , 在 
实际 应 用 中 往往 需要 动态 赋值 , 其 变化 取 值 可 定义 为: 

2. See Ju -05 


J DOD 7 
十 1， Le 之 0.5$ 
J) 7 
其 中 ，fQ) 表示 个 体 i 的 适应 度 ，foew 表示 当前 


最 优 个 体 的 适应 度 值 。 
4.3 ”适应 度 动态 共享 

在 特征 选择 中 , 选取 的 属性 个 数 越 少 ， 则 属性 对 
决策 产生 的 影响 即 支持 度 越 高 ， 应 为 其 赋予 更 大 的 适 
应 度 值 , 本 文 据 此 结合 粗糙 集 理论 对 适应 度 函 数 定 义 
如 下 : 


Card(C — B(i)) 
a Ceara (0),7c(O) -7s(0)>e 


2 0 OD) (0),ye(0) -ys(O)<e 

其 中 ，g 为 误差 参数 ，BCD 表示 个 体 i 中 对 应 位 为 

1 的 属性 组 成 的 属性 集 . 当 y(O) -ys(O)<s 时 ，B(D 

接近 最 优 解 ， 此 时 适度 赋予 个 体 ; 更 优 的 适应 度 ， 以 获 

取 较 好 的 优化 结果 。 适 应 度 函 数 涉及 粗糙 集 基础 理论 ， 
对 必要 的 概念 作出 如 下 简要 说 明 ， 详 见 文献 [20]。 

定义 4 设 信息 系统 S=(U,CUO,V,f), 若 有 

Cd UO NO 


对 C 的 支持 度 为 : yc(0)= 加 > 


XeU/Q; 耕 有 BCC,，, ys(Q)=Yc(0), 则 B 为 C 
的 约 简 集 ,将 属性 a 纳入 ROC, 对 U/O 的 重要 度 为 : 
SGF(a,R,Q)=Yriia(Q)+Yr(Q) 。 重 要 度 的 大 小 反 
映 了 4a 在 已 知 条 件 R 下 对 决策 0 的 影响 程度 。 

在 粒子 群 算法 优化 过 程 中 , 距 最 优点 越 近 的 粒子 ， 
其 位 置 更 新 会 受到 越 大 限制 ， 导 致 粒子 群 只 能 在 局 部 
极 值 邻 域 进行 搜索 ,这 是 使 粒子 陷入 局 部 最 优 和 影响 
算法 寻 优 精度 的 主要 因素 之 一 。 因 此 , 本文 考 虑 在 算 


法 中 引入 共享 函数 PI， 当 搜 索 陷 入 局 部 最 优 时 ， 以 
汉 明 距离 为 依据 ,选取 距 局 部 最 优 解 较 近 的 粒子 , 通 
过 调整 其 适应 度 , 促使 粒子 尽快 逸 出 早熟 区 。 但 在 和 迭 
代 过 程 中 , 适应 度 更 新 后 的 个 体 可 能 会 再 次 陷入 原 早 
熟 区 ,为 有 效 解决 这 一 问题 , 本文 利用 共享 距离 D 划 
定 共享 区 ,利用 适应 度 动 态 共享 策略 对 共享 区 内 个 体 
的 适应 度 进 行 调节 。 

设 某 次 迭代 中 , 含有 若干 粒子 的 群体 收敛 于 
Xocal_pest， 个体 i 到 Xcar_pes 的 距离 用 Block 距离 dl 
表示 : 


了 了 
Xi ~ Xiocal-best 


ji 
j=1 
对 个 体 i, 若 4d;<D，, 则 说 明 其 进入 共享 区 , 将 其 
初始 化 为 新 粒子 , 并 将 适应 度 更 新 为 共享 适应 度 
了 (ow。 本 文 对 了 0), 定义 如 下 : 
| D 
TOrm 
其 中 ，4q, 为 新 粒子 距 局 部 最 优 解 Xj_pow 的 
距离 ;， 环 为 修正 权 值 ， 可 根据 实际 情况 调整 值 的 大 
小 。 不 难看 出 ，4d,,, 越 小 , 粒子 距 局 部 最 优 解 越 近 , 为 
其 赋予 越 大 的 适应 度 , 能 够 使 个 体 以 更 大 概率 突破 局 
部 限制 , 避免 新 群体 再 次 陷入 局 部 最 优 。 
4.4 精英 反 向 学 习 策 略 
在 量子 粒子 群 算法 中 , 全 局 最 优 粒 子 往往 会 包含 
更 多 引导 种 群 向 全 局 最 优 收敛 的 价值 信息 ,对 种 群 的 
进化 方向 具有 重要 的 引导 作用 。 最 优 粒 子 在 当前 种 群 
中 的 自我 学 习 能 力 受 限 , 会 影响 算法 的 全 局 搜索 能 
为 拓展 到 当前 种 群 以 外 的 搜索 空间 对 全 局 最 优 粒 子 进 
行 深度 挖掘 , 本 文 引 和 精英 反 向 学 习 策 略 ， 粒 子 群 每 
达到 一 定 迭 代 次 数 ， 就 对 全 局 最 优 粒 子 进行 一 次 反 向 
学 习 , 增强 解 空间 的 开发 ,提高 算法 精度 。 
反 向 学 习 中 是 通过 求解 当前 解 的 反 向 解 ， 并 从 当 
前 解 与 其 反 向 解 中 选取 较 优 的 作为 新 粒子 参与 下 一 代 
优化 。 设 小 生境 0 中 某 个 体 X; 的 反问 粒子 为 


CD， 五 为 常数 
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在 迭代 过 程 中 , 小 生境 的 边界 交 s[ming,maxb] 
会 根据 小 生境 包含 的 群体 规模 动态 调整 ,使 搜索 空间 
逐步 缩小 ， 从 而 提高 收 化 速度 。 若 x <[ming,maxb]， 
则 说 明 反 向 粒子 不 在 可 行 域内 , 本 文 对 其 随机 重 置 , 令 
x =yW min ;+ (lwW)max;, 其 中 yw e[0,1] 为 随机 数 。 

精英 反 向 粒子 的 引入 ， 有 效 拓展 了 搜索 空间 , 在 
一 定 程度 打破 原 小 生境 , 促进 种 群 进 化 。 本 文 利用 过 
代 次 数 确定 精英 反 向 粒子 的 引入 时 机 ， 即 每 迭代 入 
次 , 算法 进行 一 次 精英 粒子 反 向 学 习 , 保证 在 一 定 概 
率 范围 内 引导 种 群 向 更 优 位置 进 化 。 
4.5 算法 流程 

根据 上 述 分 析 ， 基 于 小 生境 量子 粒子 群 算 法 的 特 
征 选择 方法 主要 步骤 如 下 : 

四 设置 种 群 规模 M， 最 大 迭代 次 数 G ,粒子 最 大 速度 
Jsx。 共 享 距离 万 等 变量 参数 ; 

@ 初 始 化 种 群 一 一 通过 二 进 制 编 码 产 生 初 始 种 群 ， 初 
始 先 代 次 数 g =1; 

图 选 出 大 个 样本 作为 中 心 , 根据 第 3 节 的 方法 构造 小 生境 ; 

@ 计 算 x(g) 求 出 个 体 适应 度 值 x(g) ,得 出 x jw(8) 、 
Xpesi (Kk) 、X(8); 

@ 粒 子 位 置 更 新 ,， x,(g)=x(g+1),g=g+l; 

@ 判 断 是 否 陷 入 局 部 最 优 ， 若 是 ， 对 共享 距离 D 内 的 
粒子 实施 适应 度 动态 共享 ; 否则 ， 转 入 步骤 CD); 

CO 判断 是 否 达到 精英 反 向 学 习 条 件 ， 若 满足 ， 则 对 最 优 
粒子 进行 反 向 学 习 ; 否则 ， 转 入 步骤 @@); 

@ 判 断 是 否 满足 迭代 终止 条 件 ， 若 满足 ， 将 得 到 的 最 优 
个 体 输出 ,其 对 应 的 特征 集 即 最 终 的 求解 结果 ; 否则 ， 转 入 
步骤 @。 


S 实验 与 分 析 


5.1 实验 设计 

(1) 文本 分 类 语料库 

要 通过 实验 对 文本 分 类 的 效果 进行 验证 ,首先 需 
要 选取 合适 的 语料库 ， 其 标准 为 使 用 广泛 、 标 准 规范 、 
科学 权威 ， 这样 便于 实验 数据 的 分 析 , 确保 实验 结 
与 同行 研究 内 容 的 可 比 性 。 本 文 参照 文献 [13], 将 复旦 
大 学 中 文 文本 分 类 语料库 作为 实验 原始 数据 来 源 ,， 相 
关 数 据 可 通过 互联 网 获取 , 来 源 网 址 : http:/www. 
nlpir.org/download/tc-corpus-answer.rar。 该 库 中 共有 20 
个 类 别 的 文档 , 各 类 文档 分 布 是 非 均 匀 的 ; 文档 又 分 


Data Analysis and Knowledge Discovery 


为 训练 集 和 测试 集 , 训练 语 料 共 9 804 篇 , 测试 语 料 
9 833 篇 ,两 者 比例 基本 相当 , 别 除 重复 和 损坏 的 文档 
后 ,训练 集 包含 文档 8 214 篇 , 测试 集 包含 文档 6 164 
篇 ; 每 一 个 文档 都 有 唯一 的 文件 名 。 本 实验 从 语料库 
的 20 个 类 别 中 选择 出 10 类 , 各 类 文档 数 如 表 1 所 示 。 


表 1 语料库 文档 数目 
类 别 训练 文档 数 测试 文档 数 
计算 机 628 591 
太空 506 248 
军事 74 75 
体育 584 489 
历史 466 468 
政治 573 482 
经 济 480 419 
艺术 510 286 
农业 547 435 
环境 405 371 


(2) 实验 环境 及 参数 

实验 在 Intel(R) Core(TM) i7-4790 CPU@3.60GHz 
计算 机 平台 上 , 利用 64 位 Windows 7 操作 系统 实现 ， 
通过 ICTCLAS 系统 进行 分 词 处 理 , 使 用 Java 语言 开 
发 的 Weka 软件 完成 数据 处 理 操作 。Weka 软件 是 数据 
分 析 常 用 的 软件 之 一 ,其 中 包含 数据 处 理 、 回 归 分 析 、 
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聚 类 与 分 类 、 可 视 化 等 不 同 的 功能 模块 和 工具 , 使 用 
较为 方便 。 

实验 参数 设置 : 粒子 规模 WM = 60，, 最 大 迭代 次 数 
G=1000 。 为 评估 算法 性 能 , 实验 先后 采用 本 文 所 提 
出 的 NOL-QPSO 和 IG、MI 及 QPSO 等 4 种 不 同 的 特 
征 选择 方法 对 语料库 中 的 文档 进行 特征 选择 ， 待 特征 
选择 后 , 使 用 KNN 分 类 器 对 文本 进行 分 类 , 设 定 分 类 
器 参数 及 =10 。 为 对 分 类 结果 定量 分 析 , 通过 准确 率 
P、 召 回 率 R 和 综合 评价 指标 Fl 值 对 各 种 方法 的 分 类 


效果 进行 对 比 ,判别 结果 说 明 如 表 2 所 示 , 计算 方法 
如 下 : 
忆 =a/(a+D) 
R=a/(a+c) 
Fl=2pr/(p+7) 
表 2 判别 结果 说 明 
类 别 判断 属 此 类 判断 不 属 此 类 
判断 属 此 类 a b 
判断 不 属 此 类 c d 


5.2 ”实验 结果 及 分 析 
实验 结果 如 表 3 所 示 , 数据 分 别 反 映 出 通过 4 种 方 
法 对 文本 分 类 所 得 结果 的 准确 率 、 召 回 率 和 Fl 值 。 


-六 
表 3 实验 结果 
NOL-QPSO IG MI QPSO 

2 P(%) R(%) S 。 P(%) R(%) 2 ， P(%) R(%) Fl 值 P(%) R(%) 四 1 
计算 机 94.26 93.88 94.07 85.24 82.46 83.83 81.52 85.49 83.46 80.04 76.52 78.24 

太空 95.21 94.54 94.87 80.59 78.96 79.77 80.92 82.57 81.74 75.83 77.20 76.51 

军事 94..27 93.56 93.91 76.42 80.12 78.23 83.10 79.86 81.45 76.44 72.56 74.45 

体育 93.58 94.08 93.83 84.46 85.60 85.03 ”79.56 81.54 80.54 69.38 76.17 72.62 

历史 92.25 93.50 92.87 82.42 81.86 82.14 82.06 80.46 81.25 72.56 71.39 71.97 

政治 90.10 91.92 91.00 80.88 82.43 81.65 74.28 78.54 76.35 75.18 78.66 76.88 

经 济 94.73 93.52 94.12 84.26 80.85 82.52 81.72 85.22 83.43 76.29 72.36 74.27 

艺术 94.20 90.84 92.49 88.24 84.96 86.57 82.91 78.53 80.66 76.80 71.22 73.90 

农业 95.78 94.22 94.99 80.56 76.84 78.66 80.48 79.31 79.89 67.12 76.18 71.36 

环境 92.46 90.68 91.56 76.85 80.47 78.62 78.19 67.12 72.23 81.03 80.56 80.79 

均值 93.684 93.074 93.378 81.992 81.455 81.723 80.474 79.864 80.168 75.067 75.282 75.174 


1 是 根据 表 3 数据 得 到 的 条 形 图 , 更 直观 地 反 。”” 率 和 召回 率 不 同 ,本 文 提出 的 基于 NOL-QPSO 的 特征 


映 了 不 同 特 征 选 择 方法 之 间 分 类 效果 的 差别 。 不 难看 
出 , 通过 不 同方 法 对 文本 进行 分 类 ， 所 得 结果 的 准确 
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选择 方法 综合 考虑 了 特征 之 间 的 相互 关系 , 在 文本 分 
类 中 表现 出 更 好 的 精确 性 ; 与 QPSO 算法 相 比 ， 
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NOL-QPSO 改善 了 算法 易 陷入 局 部 最 优 的 缺点 ,， 寻 优 
精度 更 高 ; 由 于 本 实验 所 选 语料库 中 的 样本 分 布 是 不 
均匀 的 , 所 以 IG 方法 的 分 类 效果 受到 一 定 影响 。 图 2 
则 分 别 对 4 种 不 同方 法 在 文本 分 类 中 各 类 别 的 准确 率 
和 召回 率 依 次 作出 比较 ， 从 结果 可 以 直观 地 看 出 ， 
NOL-QPSO 算法 与 其 他 三 种 方法 相 比 , 不 仅 准 确 率 和 
召回 率 更 高 , 而 且 性 能 更 为 稳定 。 根据 实验 结果 对 4 种 
方法 按 从 优 到 劣 依次 排序 为 : NOL-QPSO > MI > IG > 
QPSO。 


100 


准确 率 目 召 回 率 @F1 值 
80 上 匡 


60 广 


40— 


NOL-QPSO MI IG QPSO 
图 1 实验 结果 比较 
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Ee QPSO 1 1 1 1 1 1 1 
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文档 类 别 
(a) 准确 率 对 比 


Aa- MI 
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(b) 召回 率 对 比 


图 2 4 种 方法 性 能 对 比 
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表 4 反映 了 各 算法 的 平均 运行 时 间 , 可 以 看 出 ， 
本 文 提出 的 算法 与 其 他 算法 在 时 间 复 杂 度 上 差别 不 
大 , 在 时 间 人 允许 范围 之 内 取得 了 更 好 的 分 类 效果 , 也 
证 明了 NOL-QPSO 方法 的 有 效 性 。 
表 4 算法 平均 运行 时 间 


所 用 方法 NOL-QPSO MI IG QPSO 
运行 时 间 (s) 1 744 1541 ©1496 1 598 
6 结 语 


本 文 以 可 拓 理 论 为 基础 构造 算法 模型 , 结合 适应 
度 共 享 和 精英 反 向 学 习 等 策略 ， 提 出 一 种 用 于 特征 选 
择 的 改进 粒子 群 算法 NOL-QPSO, 主要 工作 体现 在 以 
下 几 点 : 

(1) 以 可 拓 理 论 为 基础 , 将 小 生境 策略 用 于 量子 
粒子 群 算法 ， 以 改善 算法 的 全 局 性 ; 

(2) 加 入 适应 度 动态 共享 环节 , 通过 引入 共享 函 
数 调整 适应 度 ， 避 免 陷 人 早熟 ; 

(3) 通过 实验 , 对 不 同 的 文本 特征 选择 方法 进行 
比较 , 验证 了 本 文 所 提 算 法 的 有 效 性 。 

本 文 方法 在 文本 分 类 中 取得 了 较 好 的 分 类 效果 ， 
而 时 间 效 率 与 传统 方法 基本 相当 , 与 QPSO 算法 相 比 ， 
算法 搜索 精度 得 到 明显 提升 , 为 中 文 文本 的 特征 选择 
问题 提供 了 一 种 方法 和 思路 。 对 算法 时 间 效 率 的 改善 ， 
是 后 续 的 研究 重点 之 一 。 
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Feature Selection Based on Modified QPSO Algorithm 


LiZhipeng Li Weizhong 
(Air and Missile Defense College, Air Force Engineering University, Xi’"an 710051, China) 

Abstract: [Objective] This study proposes an algorithm for feature selection aiming to improve the precision and 
efficiency of text classification. [Methods] First, we selected features based on their characteristics. Then, we 
constructed the algorithm with extension theory to strengthen its searching ability. Finally, we compared the 
performance of different methods for text classification. [Results] Compared with IG MI and QPSO, the proposed 
algorithm had better accuracy in feature selection. [Limitations] The efficiency of our algorithm needs to be improved. 
[Conclusions] The modified QPSO Algorithm is an effective way to select features. 
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